第14章 心理統計学の役割
14-1. なぜ統計学を使うのか
14-1-1. 心を数値化する
心理学が研究対象とするのは構成概念であり、客観的な物理量を測定できるものではない 実証性を担保するデータは数値化しなければならないわけではない
観察を使った研究では観察対象の行動を記録したものがそのままデータになることがある
面接を使った研究ではその場での言語的なやり取りを書き起こしたものがデータとして利用される場合も多い
質的データであっても数値に変換することで取扱が容易になることがある
観察学習(モデリング)に関する研究では、暴力行為の観察で子供が暴力的になるかが調べられたが(→第4章 学習心理学)、分類された子供の行動の回数を数え上げることで攻撃性の程度を測っている モデルを模倣して人形を殴ったい蹴ったりした回数や、口汚く罵った回数などが調べられ、その総数を様々な条件で比較することで、モデルを観察する方法の違いや性別の違いによって攻撃性に違いが見られるかが調べられている(Bundura et al., 1963)
数値化はこころの個人差を表すためにもよく用いられる
得点として表すことができれば程度の違いをわかりやすく表現することができる
心を数値化するには心のものさし(尺度)が必要
利用できる統計処理も変わってくる
14-1-2. 心を測るものさし(尺度水準)
回答者の属性に関する基本的な情報
性別、専攻、職業など
数値が割り当てられるが便宜的に区別するための記号に過ぎない
四則演算はいずれもできず、個々の数値が観測された個数を数え上げる(度数を求める)ことだけ
数値によって順序関係は明確になるものの、数値感の目盛りが等間隔ではないため、名義尺度と同じく質的な尺度といえる
四則演算することができない
足し算や引き算ができる
心理測定尺度は厳密に言えば、間隔尺度と見なしているにすぎない
言語ラベリングをつけるのかによっても心理的な間隔は異なってくるので、ワーディングには注意が必要(→第2章 心理学の研究方法) 比率尺度: 目盛りの間隔が等しいことに加え、絶対的な原点を持つ尺度 体重、身長などは0が何もないことを表す
間隔尺度の例として摂氏が挙げられるが、摂氏0度は温度がないことを示すわけではなく、0は絶対的なものではない
すべての四則演算が可能
最も尺度水準が高いと考えられる
14-2. 記述統計
14-2-1. 度数分布
記述統計: 収集したデータを整理し、その特徴をわかりやすく記述する 例えば尺度を使って大勢を対象に測定を行った場合、測定値の傾向を把握するには度数分布を作成すると便利
統計的な分析を行う最初の段階として重要な作業
極端な値やありえない数値を発見することができる
後述
14-2-2. 要約統計量: 代表値
測定値の数が増えるに連れて、度数を求めるだけでは全般的な傾向が見えづらくなってくる
平均値: すべての測定値を足し合わせ、その合計を測定値の数で割ったもの 分布に偏りがある場合、平均値はその影響を受けやすい
中央値: 測定値の大きい順(小さい順)に並べた時に中間に位置する値 外れ値の影響を受けにくい
標本数が偶数の場合は真ん中に近い前後の値の平均
外れ値の影響を受けにくい
14-2-3. 要約統計量: 散らばり
分布の特徴を表す要約統計量としては測定値の散らばりを示す指標も重要
最も単純なのは測定値の範囲で、最小の測定値と最大の測定値との間にどれくらいの隔たりがあるか
$ 分散 = \frac{(各測定値 - 平均値)の2乗の和}{測定値の総数}
各測定値から平均値を引くことでそれぞれの値がどの程度隔たっているか(偏差)という値を算出している 正負の影響をなくすために、二乗した上ですべてを足し合わせている
これを測定値の総数で割ることで測定値の平均的な偏差を求める
分散は計算の過程で2乗しているためもとの測定単位がわかりにくい。
標準偏差(standard deviation: SD) 分散の平方根(分散をもとの測定単位にできる)
正規分布では全体の約68%は±1・SD内に入り、約96%±2・SD内に収まる
14-2-4. 複数種類の測定値間の関係
心理学の研究では複数種類の測定値についてその関係性を調べることも少なくない
e.g. 自尊感情の低い人ほど抑うつの程度が高いのではないかという仮説の検証
2つの程度をそれぞれ心理測定尺度によって測定し、その関係性を検討する
散布図: 2種類の測定値のうち一方を縦軸に、もう一方を横軸に表したもの 相関係数: $ -1から$ +1までの値を撮り、$ -1に近いほど負の相関が強く、$ +1に近いほど正の相関が強く、数値が$ 0の場合は無相関 相関との違いを明確に区別する
二種類の測定値を得て、仮に相関関係が見出されたとしても、そこからすぐにある一方向的な因果関係を想定することには厳に慎まなくてはならない
14-3. 推測統計
14-3-1. 母集団と標本
心理学の研究の多くは、特徴を単に要約するだけではなく、統計的な推測を行うのが一般的
実験参加者の数値ではなく、その背後にある一般的な傾向について知りたい
心理学の目的は心の原理(法則性)を見出すことにある
標本は母集団を適切に代表するものでなくてはならない
14-3-2. 統計的仮説検定(有意性の検定)
平均値の差が出たとして、本当に意味のある違いなのだろうか
心理学では統計的に意味があるものか(有意であるかいなか)について統計的仮説検定を行う 2群間の平均値の差を検定する場合に多く用いられる
仮説検定のおおよその手順
検定の対象となる仮説を設定する
帰無仮説($ H_0): 棄却されることを想定した仮説 e.g. 日本人とアメリカ人の自尊感情には差がない
対立仮説($ H_1): 帰無仮説が棄却されたときに採択される仮説 e.g. 日本人とアメリカ人の自尊感情には差がある
収集した測定値から検定統計量を算出する
$ t検定であれば$ t値
検定統計量には分布が想定されているが、その分布において算出された統計量が棄却域に入る値であれば、帰無仮説を棄却し、対立仮説を採択することになる (注) 有意性の検定は相関係数においても行う場合がある。2つの測定値の間の関係が無相関という帰無仮説を立てて同様の手順を踏む
棄却域は有意水準を何%に設定するかによって変わってくる 慣習的には5%だが、特別な意味はなく恣意的な数字
5%水準で帰無仮説が棄却された場合、今回の調査で見られた差が単なる偶然である確率は5%未満ということになる
5%水準の場合、20回に1回程度は発生することになる
したがって3群以上のグループの比較をする場合に2群間の比較を繰り返すという方法をとってはならない
3群を2群ずつ有意水準5%でそれぞれ別々に検定した場合、少なくとも1回帰無仮説を誤って棄却してしまう確率は約14%似まで上昇する
3群以上の平均値を比較する場合にはt検定ではなく分散分析を用いるのが通例 有意水準には1%を使用することもあるが、1%水準で有意だからといって5%水準と比べて2群間により大きな差があるわけではない
単に両群間の差が偶然である確率がより低くなっただけ
また統計的に有意であったとしても、それが現実には余り意味を持たない場合があることも注意が必要
知能検査の平均得点は第一子が第二子以降に比べ、有意に高いことが明らかにされている(Kristensen & Bjerkedal, 2007)
平均得点の差は最大でも3点程度で知能検査の得点としてはほとんど無視できる程度の違い
一般に標本の数が増えるとばらつきが少なく信頼性が高いデータを得られやすい
その群間の平均の差がわずかなものであっても、統計的には優位な差になりやすい
推測統計は現実の世界でどのような意味を持つのかという視点
有意水準は恣意的なものであるにもかかわらず、心理学者の多くは収集したデータの検定統計量がこの水準を下回ることに血道を上げているという批判がある
最近では論文に帰無仮説が真である確率($ p値)をそのまま表記したり、効果の大きさを表す統計的指標(効果量)などを併記したりするケースも目立ち始めている(大久保・岡田, 2012) 帰無仮説を立て、それを棄却し、対立仮説を採択するという回りくどい有意性検定の手順を踏むのではなく、研究仮説が正しい確率を直接推定しようとするベイズ流の統計学も近年大きな注目(豊田, 2017) 心理統計学の手法は近い将来劇的に変化する可能性もある